ИИ провалил экзамен по истории.
Ученые провели уникальное исследование о том, как искусственный интеллект справляется с историческими науками. В ходе работы они опирались на базу данных Seshat Global History Databank , которую команда руководителя, Питера Турчина, собирала больше десяти лет. В ней хранится подробная информация о 600 цивилизациях со всего мира — свыше 36 тысяч исторических фактов, подкрепленных 2700 научными источниками.
Питер Турчин возглавляет исследовательскую группу в научном центре Complexity Science Hub, где изучает развитие и упадок различных древних обществ. К исследованию присоединился специалист по компьютерным технологиям Мария дель Рио-Чанона. Они решили проверить, насколько хорошо современные языковые модели вроде ChatGPT-4, Llama и Gemini могут помогать в работе историкам и археологам. По словам Турчина, несмотря на то, что искусственный интеллект уже успешно справляется с некоторыми сложными задачами — например, помогает в работе юристам — ему пока трудно разобраться в том, как жили древние общества. И эта проблема становится особенно заметной, когда дело касается регионов за пределами Северной Америки и Западной Европы.
Для исследования ученые составили тесты такой сложности, с которой обычно сталкиваются выпускники исторических факультетов и профессиональные историки. Результаты они представили на конференции NeurIPS . Даже лучшая модель GPT-4 Turbo смогла верно ответить только на 46% вопросов, где нужно было выбрать один из четырех вариантов. И хотя это лучше случайного угадывания с вероятностью 25%, искусственному интеллекту явно не хватает глубокого понимания мировой истории.
Мария дель Рио-Чанона, ведущий автор исследования и доцент Университетского колледжа Лондона, не скрывает разочарования результатами — она ждала гораздо большего. По ее словам, главная проблема в том, что недостаточно просто знать факты. Нужно уметь их правильно толковать, а для этого требуется понимать контекст и видеть связи между событиями.
В ходе проверки модели не просто отвечали на вопросы о конкретных исторических фактах. Им нужно было определить, можно ли подтвердить то или иное историческое утверждение напрямую или только через косвенные свидетельства. Так ученые проверили, способен ли ИИ анализировать историю на экспертном уровне.
Когда исследователи сравнили ответы по разным регионам, они обнаружили любопытные закономерности. Системы OpenAI лучше разбирались в истории Латинской Америки и Карибского региона, а модели Llama точнее отвечали на вопросы о Северной Америке. При этом все системы плохо ориентировались в истории Африки южнее Сахары, а технологии Llama к тому же слабо знали историю Океании. Ученые считают, что причина в несбалансированных данных для обучения — некоторым регионам в них уделили слишком много внимания, а другие остались в тени.
Удивили и результаты тестирования на знание разных исторических периодов. Языковые модели увереннее отвечали на вопросы о древней истории, особенно о периоде с 8000 по 3000 год до нашей эры. А вот события после 1500 года нашей эры давались им заметно хуже.
Анализ по темам тоже выявил сильные и слабые стороны ИИ. Они неплохо разбирались в правовых системах и социальном устройстве разных обществ. Но как только речь заходила о дискриминации и социальной мобильности, модели начинали путаться.
GPT-4 Turbo показала лучший результат среди всех систем, правильно ответив на 46% вопросов, а Llama-3.1-8B справилась только с 33,6%.
Исследователи уже наметили следующие шаги. Они хотят расширить базу данных, добавив больше сведений о регионах глобального Юга — это поможет сбалансировать географический охват. В будущем исследователи планируют сделать тесты более сложными, чтобы лучше понять пределы возможностей искусственного интеллекта в изучении истории. Отдельно будут тестировать новейшие языковые модели, включая систему o3, чтобы понять, как развивается технология.